查看原文
其他

应用篇|漆远:AI在蚂蚁金服业务的应用(最新演讲实录+核心PPT)

Linda 极市平台 2019-03-29
↑ 点击蓝字关注极市平台 识别先机 创造未来


在2017中国人工智能大会(CCAI)上,蚂蚁金服副总裁兼首席数据科学家漆远发表了题为《金融智能的发展与应用》演讲,分享了蚂蚁金服做AI的原因、在部分场景的应用和技术原理、技术能力开放(列举了模型服务平台)、应用于车险行业的“定损宝”、面临的技术挑战及对未来的思考等话题的见解。


本文为早餐君根据蚂蚁金服所提供的速记整理而成,在不改变讲者原意的情况下做了编辑和缩略。禁止私自二次转载,如需转载请联系「AI早餐汇」。


漆远,蚂蚁金服副总裁、首席数据科学家,麻省理工学院博士,国家千人特聘专家。目前致力于大规模机器学习和深度学习平台的建立及其在蚂蚁金服各项业务的应用。以下为漆远的演讲内容。


蚂蚁金服为什么要做AI


很高兴为大家介绍下AI在蚂蚁金服的发展和应用。

为什么要做AI?AI离不开场景和数据。为什么要有场景,因为做AI是要解决真正的问题,产生真正有意义的服务。金融领域有大量的服务,从支付、保险、财务,到风控、微贷等各个领域。一个典型的场景,例如判断某个小企业是否具备相应信用能够承受贷款风险。

在所有场景里都产生了海量数据,这些数据成为人工智能的燃料,可以发展和应用一系列的人工智能技术。这些场景、问题本身又为人工智能带来了挑战。比如,时间敏感要求一笔交易在毫秒级完成判断。


海量数据,一天几亿笔的数据,需要大规模、稳定的风控系统;业务多样性,比如,怎样用迁移学习发现不同任务之间的共性;系统性风险,系统可以用一个网络来表达,怎样从网络的角度分析问题;此外,强数据安全和用户隐私保护也是金融业务本身的属性。


面对这些挑战,蚂蚁金服构建了一个金融智能平台,从底层图像理解,以及使用阿里巴巴集团的语音识别能力,在此之上发展了NLP的能力,在(平台上)进行机器学习、深度学习,分析时间序列。比如,预测余额宝的利率变化。最顶层,发展推理和决策的能力,从而帮助用户和金融合作伙伴做出明智的决策。


这个金融智能平台包括了一系列人工智能技术。例如:强化学习、无监督学习、图推理、共享学习,等等。这些技术具备金融领域的实时对抗性、大规模以及安全加密性。



今天讲几个例子,从例子出发讲讲背后的技术。先介绍下蚂蚁金服的定位和关键词,定位是Techfin,今年的两个关键词是“开放”和“AI”,希望通过AI驱动所有的业务。作为科技公司,我们的技术成熟一个就开放一个,下面探讨的技术也会探讨如何开放给伙伴。


用大规模深度学习技术升级风控系统


在安全风控中,有用户、设备、商家,通过资金流动形成互联。传统的风控技术中建立了很多的规则和模型,蚂蚁金服过去十年通过使用大量的机器学习建立了强大的风控系统。


今天,希望进一步升级风控系统。比如,可信模型,判断有一笔交易是否存在账号被盗。这里面我们使用了一种跨界技术,其实就是广告CTR预估技术。在2014年Facebook广告算法文章中,讲的是GBDT+逻辑回归。


我们通过开发的参数服务器技术,把逻辑回归换成了大规模深度学习,应用到风控里面。因为在风控里,很多特征无法判断哪些有用,哪些没有用,我们用GBDT产生海量特征,然后把这些特征Feed给DNN(深度神经网络)学习模型。(注:GBDT,Gradient Boosting Decision Tree,是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来做最终答案。)


前面说了如何把GBDT和DNN结合起来做风控。深度学习往下走,我们也考虑关系:用户、商家、卖家等的关系。下面举一个例子,通过Embedding技术,把整个关系结合起来,形成图形网络,然后进行监督学习、加强学习。


看个例子,比如,支付宝账号的账户(行为),判断一个人是否注册垃圾账号特别简单。可以把整个的图关系通过一个Embedding的技术产生深度学习的网络,通过机器学习产生一个隐层表达,这个表达不光涵盖了每个节点自身复杂的特征,同时还对网络结构做了一个Encoding。


在垃圾账号识别上,经典的Recall-Precision曲线中,Precision越高越好,接近1就是完美。我们对图使用Embedding技术后有了质的飞跃,Recall在70%、80%的时候,Precision达到90%,而原来的算法Precision在40%多,这基本相当于瞎猜。和以前的系统相比,Node2Vec也非常先进,我们在此基础上又做出了明显的提升。


将图的关系和Feature结合起来,可以产生非常Power的模型,用到我们的模型里面。


智能助理问题解决率超过人工客服


过去很多年,无论中国还是美国,智能助理和机器人都是非常热的话题。对话很关键,在蚂蚁金服初始,对话从客服机器人开始。如果你使用支付宝,打开客服“小蚂答”可以问它各种问题,例如,你问余额宝收益怎么算,它就给你这样一个答复:提供工具输入金额并计算。


还有财富的理财渠道,你问它某个企业业绩怎样,它就会开始进行舆情分析。舆情分析在金融领域有非常多的应用,我们可以自动分析在国内的海量舆情,为月新闻、周新闻相应地打出舆情分。


下面讲两个技术。在对话机器人的客服(场景),假如问了这句话:我怎样申请退钱回来。它是没有场景的,在问答系统中要理解它,就要真正知道在问什么,我们可以根据用户的近期操作来处理,这些操作本身就提供了一个背景和场景。



我们通过LSTM对用户行为轨迹做编码,整个模型是一个深度排序模型,比较哪个更相似,通过LSTM建立模型,把怎样申请退钱回来的用户问题,和转账转错怎么办和为什么银行卡转账被退回,这两个进行答案匹配。我们给出了正确的选择转账到账户错了怎么办。(注,LSTM,Long Short-Term Memory,是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。)


这里面有一系列的创新,这些创新今天不一一讲。最后的结果,去年双十一智能客服自助率做到97%。今年,问题解决率超过了人工客服,机器人回答问题比人回答更为满意。


这里对舆情分析背后的技术做简单介绍。首先是一个特别简单的模型,统计这些感情单元,同时又和深度学习的方法结合,最后产生整体判断,这里面使用CNN(卷积神经网络),K-MaxPooling可以结合起来,还有TNN(张量神经网络),将所有的信息结合起来进行综合评价。


刚才两个例子讲到对话机器人,第一个是客服,第二个是财富号的舆情分析,再就是保险。同时,支付宝本身也在进行升级,您对支付宝可以说话,比如说,我要给我的同事通过语音进行转账,它自动完成转账并记录到账单里面。


大规模机器学习平台的广泛应用和模型服务平台的开放


好的效果,后来用于淘宝推荐,前年用到双11推荐,今年又用到了蚂蚁的风控里面,它的核心技术就是通过系统和算法的结合,处理海量数据。


在风控系统里,我们可以在同样安全覆盖的情况下,提升召回率,每天一千多万笔可以准确轻松地通过审查。这个平台前年已经做到了,但是今年才写文章出来。它能支持100亿特征、千亿样本、万亿参数。这是说它可以支持非常多的数据和特征,可以从数据中提取价值做出预测。


假设非常多的数据,万亿参数非常耗能耗,同时需要很多机器,很多时间的Applications,我们希望速度比较快比较省能源。


在经典的矩阵分解中,相信大家都很了解,但如果把矩阵分解和哈希算法做结合,我们可以处理非常大的矩阵,比如说1亿×1千万的矩阵分解,2小时收敛,从工业界的角度具有非常大的价值。我们用到了口碑的场景中,点击率的升幅超过120%。


刚才介绍的是机器学习,就是参数服务器,支持深度学习。下面再讲一个技术,场景是营销,比如各类的商家营销,怎样发,发给谁,这是非常有价值的商业问题。


这里面我们开发了加强学习技术。在这个算法中,有State、Action和Reward的状态,我们定义了一个空间,State是从多个业务抽取特征,刻画用户状态,Action是对哪些卡片和渠道做了相关决策组合,Reward就是用户的点击和签约行为。整个框架是流式强化学习框架,所以能够实时实现Update。


上面讲了一个流程,比如花呗准入,是否准入和签约,整个算法可以在框架上迭代,效果就是在深度学习基础上有更好的提升,比如推荐卡片点击率171%的增长和最终签约率149%的增长。


下面讲另外一个例子。如果每个技术都作为一个工具开放出来,您只想用这个工具而不太想深入技术本身怎么办?我们开发了一个模型服务平台,将整个模型训练可视化,通过简单的点击、拖拽数据就能产生所有的结果。


比如说您是做应用开发的,可以把算法在上面应用后进行一键部署。当然如果您是做算法开发的,也可以写出新的算法,例如加强学习等,通过统一的平台进行服务。在蚂蚁金服内部,从芝麻信用到网商银行的借贷,到风控都正在全面地使用我们的平台。


模型服务平台——上手门槛低 所见即所得


现在讲蚂蚁金融云和开放平台,希望我们的AI技术能力开放服务于客户和合作伙伴。

这个模型服务平台简单来说就是模型所见即所得,不光数据是资产,模型本身也是资产。做到可视化,对于用户,提供给开发人员方便的建模方式,很容易使用,不需要知道某一行公式怎样推导,可支持A/B测试,全流程地效果监控,同时跨团队地合作,并且可以实现多人同时开发。


简单展示训练模型时的一个视频。这是显示的分类结果,这是得出来的树状模型,可以进行效果评估,这里可以比较两个算法哪一个更好,拆分以后随便选两个算法自动评估,可以进行结果对比。


我们以前在学校训练完模型后,手工测试几个测试集就结束了。在实际业界的应用里一直有新的数据在跑,产生新的预测,必须简洁好用。在我们说话的时候,这就产生了一个部署的API,大家如果有问题还可以看一个请求示例,示范如何使用这个API。


部署完了以后要知道效果好不好,是不是一直稳定,比如要监控信用分,KS值,它是AUC的变种。可以看到它对每一天当时的效果实时进行监控。


刚才讲了从模型训练到数据特征的产生,您可以从各种模块,从训练到部署产生API,到最后效果的监控,全流程地展示。


定损宝的原理和技术难点


最后讲一个例子,前几周保险事业部和我们发布了一个产品叫“定损宝”。做什么呢?出了一个小车祸,照张像,哪里有问题,是撞了一个洞还是刮蹭,对此进行判断是非常复杂的事。我们不是做OCR识别,也不是做数字识别,但是我们要做检测哪个部件比如说车门、车灯还是保险杠(是否受损)。


我们要理解这个场景,比如说有一个缝,本身计算机不知道是车上的缝还是墙上的缝,还必须知道这个问题多么严重,最后是一个决策,将多个数据源结合起来,给用户和定损员一个辅助判断 。


(现场展示了一张图像)您觉得车哪里有问题,我当时看了很久也没看出来。这里面有什么问题呢?如这里所示,有个特别微小的变形。但是这里要解决几个问题,第一是问题在哪里,第二要把问题分几层,到底有多严重的问题。有的是轻度变形,有的重度变形了得把整个部件换掉,有的稍微一修就好了,最后告诉您维修要用多少钱,在App里面把北京你所在位置附近的维修店全部选出来告诉您成本,您做一个决策是否要修。


下面举几个在这里面遇到的计算机视觉方面挑战。比如部件识别,这里面有多少个部件呢?我不是很专业,不算汽车爱好者,但是可以看出来这里有很多部件。所有的部件要找到,并且有问题的都要看出来。再举个例子,左边一个强反光,强反光是不是有问题呢?我们要琢磨琢磨。还有,照相的时候人脸都对着框子里照,拍车照片的角度变化大很多 。

这个项目的开始和拿到初步的结果是由算法团队和业务同学通力合作的结果。算法同学积极学习业务,从开始看不出来图像里车的问题,到现在都快成了专业的图像定损员了。


我们的技术基于一系列的流程,从噪音去除到类别识别到目标检测和程度判断,到底多严重,是变形还是刮蹭。根据很多张图片,最后要做预测结果的综合,综合以后做数据决策辅助,这要打通车的原件数据库来分析。全国有4500万案件/年, 60%的案件都是纯外观损伤,它覆盖了非常大的比例。每个成本平均150块钱, 可以减少50%的作业量。


关于未来和挑战


以上介绍了一系列的技术。以前,我当老师写NSF Proposals,都有两个目标要写,一个是Intellectual Merits,技术的原创性,另外一个是Broad Impact,对世界的影响。一般第一个目标我们都拼命写,第二段都是来回贴的那种,为什么?因为当时在学校做研究跟工业界有距离,缺乏直接的对世界产生影响的办法。


今天,我觉得学校可以和工业界更多合作,工业界有更多的数据,更大的问题,更难的挑战,不仅应用技术,还可以发展技术,今天介绍的只是一部分,我们还有没发布的技术。



总结一下,今天讲了深度学习和图的结合,主要用于系统性风险的监测与预测;智能助理,我们达到了超越人满意度的智能客服。今天智能助理完成任务可以基于一系列场景,因为支付宝是一系列的金融生活服务平台,今天加上智能的定语叫智能的一系列的金融生活服务平台;介绍了基于哈希的海量特征提取,完全是从工业的角度,希望算得快、便宜和省内存;另外是深度强化学习,在营销与推荐领域的应用。


下面说些我们和其他公司可能都面临的挑战。我们虽然有很多数据,但是比起我们的业务问题复杂度还是不够,小数据、弱标注的数据学习就很重要。


另外,比如,怎样处理有噪音与不确定性的推理。专家系统是从逻辑推出来的,但是它不能处理真实世界里的噪音和异常情况,今天讲的Graph Emedding是一条路,但不是仅这一条,还有其他的方向。


机器学习里还有一个很重要的问题,模型的可解释性,你要知道为什么,在金融场景有非常多的应用,为什么信用分变低了你要给一个交代,就是解释,今天的深度学习缺乏解释性。


还有,如何从观测的而不是随机对比的数据中做因果分析;长期目标与短期目标映射,怎样把长期的目标和短期目标结合起来。最后,非线性动态网络系统,网络本身在改变,这里面和物理学有一些概念很相关,同时和图理论非常相关,这对风险、监控和交易都会很有用。


最后强调下,蚂蚁是一家做普惠金融的科技公司。我们的主题是开放与AI, 技术成熟一个开放一个。从客服到模型部署平台到其他的每一个案例,包括舆情平台,我们都非常愿意赋能和服务客户,和合作伙伴、客户共同探讨和创造未来。


本文授权转载自微信号AI早餐汇,禁止二次转载,点击阅读原文查看原文。


*推荐文章*

无人驾驶之眼  智能交通灯检测技术

纺织业智能升级   高精度图像检索—服装检索算法

智能妙趣喜帖应用  轻量级的二维目标跟踪技术



*注*:如有想加入极市专业CV开发者微信群,请填写申请表(链接:http://cn.mikecrm.com/wcotd9)申请入群.

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存